Relationsextraktion durch Frequent Patterns in Dependency Graphen
نویسندگان
چکیده
Die Anzahl der Veröffentlichungen im biomedizinischen Sektor wächst exponentiell. Dies macht Verfahren notwendig, in der großen Menge von Publikationen (man spricht dabei von einem Korpus) relevante Informationen automatisch zu finden. Eine wichtige Aufgabe ist die Extraktion von Relationen zwischen biomedizinischen Entitäten. Typische Entitäten sind Proteine, Gene und Krankheiten und wichtige Relationen sind Protein-Protein-Interaktionen, Protein-Funktion-Zusammenhänge und Gen-KrankheitBeziehungen. Der einfachste Ansatz zur Relationsextraktion ist die Sätze einer Publikation auf das gemeinsame Vorkommen von Entitäten zu überprüfen [1]. Tritt dieser Fall ein, wird dies als Relation zwischen den Entitäten gewertet. Dieses Vorgehen findet trivialerweise alle vorhandenen Relationen in einem Satz, was einen Recall von 100% bedeutet. Allerdings ist die Precision sehr niedrig, da viele der gefundenen Relationen gar keine sind. Ein verfeinerter Ansatz ist die Einbeziehung der Umgebung der Entitäten im Satz, d. h., dass ein gemeinsames Vorkommen von Entitäten nur dann als Relation gewertet wird, wenn diese und ihre umliegenden Wörter einem bestimmten Muster (engl.: Pattern) entsprechen [2]. Dadurch wird eine hohe Precision erreicht, da idealerweise alle Sätze ohne Relationen nicht den Patterns entsprechen und herausgefiltert werden. Allerdings sind Patterns schnell zu fein, so dass viele korrekte Relationen ebenfalls nicht
منابع مشابه
Modellbasierter Entwurf strukturanaloger Architekturen auf Basis der Partitionierung von Graphen
In großen Unternehmen treffen hohe Komplexität auf die Forderung nach hoher Flexibilität, um Produkte und Prozesse den sich schneller ändernden Anforderungen anpassen zu können. Informationssysteme stellen dabei einen unterstützenden, gleichzeitig aber auch einen hemmenden Faktor dar, da sie oft weniger schnell verändert werden können, als die durch sie unterstützten Prozesse. Da die Abhängigke...
متن کاملEvaluierung und Erweiterung von MapReduce-Algorithmen zur Berechnung der transitiven Hülle ungerichteter Graphen für Entity Resolution Workflows
Im Bereich von Entity-Resolution oder deduplication werden aufgrund fehlender global eindeutiger Identifikatoren Match-Techniken verwendet, um zu bestimmen, ob verschiedene Datensätze dasselbe Realweltobjekt darstellen. Die inhärente quadratische Komplexität führt zu sehr langen Laufzeiten für große Datenmengen, was eine Parallelisierung dieses Prozesses erfordert. MapReduce ist wegen seiner Sk...
متن کاملMining Frequent Patterns in Uncertain and Relational Data Streams using the Landmark Windows
Todays, in many modern applications, we search for frequent and repeating patterns in the analyzed data sets. In this search, we look for patterns that frequently appear in data set and mark them as frequent patterns to enable users to make decisions based on these discoveries. Most algorithms presented in the context of data stream mining and frequent pattern detection, work either on uncertai...
متن کاملSpectral methods for efficient load balancing strategies
Die gleichmäßige Verteilung der auftretenden Rechenlast bei gleichzeitiger Minimierung der Kommunikation ist von entscheidender Bedeutung für die effiziente Auslastung der Ressourcen eines parallelen Systems. Eine große Zahl von Lastverteilungsverfahren wurde entwickelt und durch theoretische Analyse, durch Experimente und durch Integration in Anwendungen untersucht. Unter diesen Verfahren spie...
متن کاملInteraktives Trennen von Gefäßbäumen am Beispiel der Leber
Zusammenfassung. Der vorliegende Beitrag stellt ein interaktives Verfahren zur Trennung und Einteilung von Gefäßen am Beispiel der Leberoperationsplanung vor. Die Gefäße werden aus kontrastmittelverstärkten CToder MRAufnahmen extrahiert und durch einen Graphen beschrieben. Dieser Graph wird mittels Open-GL visualisiert, so dass eine direkte Manipulation der Teilsegmente des Graphen möglich wird...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2009